Why You Cannot Trust Numbers from Qualitative Usability Studies定量可用性測試:小樣本研究存在大測量誤差
定性可用性研究因樣本量小且協議可變,所得數字往往會因大測量誤差而難以準確反映整體使用者行為。定性可用性測試是常見的資料收集方法,主要透過觀察少量使用者完成任務的表現來識別設計的易用性問題。然而,研究中生成的數字(如任務成功率、完成時間或滿意度評分)並非可靠指標。
常見問題包括:
- 樣本量小,誤差大:少量參與者的個人因素容易影響結果。
- 統計支援缺乏:缺乏置信區間或統計顯著性檢驗。
- 協議可變性:定性研究通常允許更多幹預,增加了資料噪聲。
真值理論:理解測量誤差
- 真值(True Score): 使用者總體的真實行為資料,例如總體使用者成功完成任務的百分比。
- 觀測值(Observed Score): 透過小樣本研究得出的結果,用以預測真值。
- 測量誤差: 觀測值與真值的差異。
公式:觀測值=真值+測量誤差觀測值 = 真值 + 測量誤差
關鍵:
- 如果測量誤差小,觀測值可以較好地預測真值。
- 如果測量誤差大,觀測值無法可靠預測真值。
樣本量小導致大誤差
噪聲的來源:
- 個人差異: 使用者背景、技能水平、狀態等因素。
- 外部環境: 研究過程中的幹預或非設計因素。
示例:
樣本量10人: 若5人完成任務,成功率觀測值為50%,但置信區間可能為24%–76%,誤差高達 ±26%。樣本量100人: 同樣觀測值50%,置信區間縮小至40%–60%,誤差僅為 ±10%。
統計工具的作用
1. 置信區間(Confidence Interval)
定義: 描述觀測值預測真值的可能範圍。
樣本量越大,置信區間越小,測量誤差越低。
示例:樣本量10:成功率50% ±26%。樣本量100:成功率50% ±10%。
2. 統計顯著性(Statistical Significance)
- 定義:判斷兩個觀測值的差異是否真實存在,而非資料噪聲導致。
- p值:表示差異由偶然產生的機率(如p<0.05,則差異顯著)。
示例:設計A和B的任務成功率為60%和70%。若p>0.05,則差異可能是噪聲;若p<0.05,則差異顯著且可歸因於設計差異。
協議可變性加劇誤差
定性測試特點:
- 目標: 快速發現設計問題。
- 特點: 協議靈活,允許幹預或調整任務。
- 結果: 不同使用者的測試條件差異大,資料噪聲增加。
定量測試特點:
- 目標: 精確測量指標。
- 特點: 協議固定,幹預少。
- 結果: 資料噪聲小,結果更可靠。
不要在無統計支援下報告數字
誤導性陳述與改進建議:
| 錯誤陳述 | 改進建議 |
| “70%的使用者完成了任務。” | “在本研究中,10名參與者中有7名完成了任務。根據該結果,我們估計總體成功率為39%–90%(95%置信區間)。” |
| “新設計的易用性評分優於舊設計(6.2 vs 5.1)。” | “在研究中,新設計的易用性評分高於舊設計,但差異未達統計顯著性(p>0.05)。因此,不確定該結果能推廣到總體。”或“差異顯著,p<0.05。” |
| “滿意度均值為6.7(1為最低,7為最高)。” | “研究中,滿意度均值為6.7(1為最低,7為最高);我們預計總體滿意度均值為5.2–7(95%置信區間)。” |
- 小樣本研究存在 大測量誤差,難以預測總體行為。
- 統計工具(置信區間、顯著性檢驗) 是驗證觀測值的重要手段。
- 定性研究的靈活性雖有助於發現設計問題,但容易引入資料噪聲,不宜直接報告數字。
- 建議: 在報告中明確結果的範圍和侷限性,避免誤導決策者。